期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于粗糙集理论的不完备数据分析方法的混合信息系统填补算法
彭莉, 张海清, 李代伟, 唐聃, 于曦, 何磊
计算机应用    2021, 41 (3): 677-685.   DOI: 10.11772/j.issn.1001-9081.2020060894
摘要406)      PDF (1135KB)(644)    收藏
为了提高基于粗糙集理论的不完备数据分析方法(ROUSTIDA)在实际应用中对包含离散型(如整型、字符串型、枚举型)、连续型(如浮点数表达)、缺失型属性的混合信息系统(HIS)数据的填补能力,提出了一种基于粗糙集理论的混合信息系统缺失值填补方法(RSHISMIA)。首先,根据决策属性等价类划分思想并按照决策属性对混合信息系统HIS进行划分,解决了填补后可能出现的决策规则冲突问题;其次,定义混合距离矩阵来合理量化对象间的相似性,从而筛选出具有填补能力的样本并克服ROUSTIDA无法处理连续性属性的缺点;然后,结合近邻思想解决了ROUSTIDA在无差别对象属性值发生冲突情况下无法对相同属性缺失数据进行填补的问题。最后,使用10个UCI标准数据集进行实验,将所提出的方法与ROUSTIDA、K近邻填补(KNNI)算法、随机森林填补(RFI)算法和矩阵分解(MF)等几种经典算法进行了比较。实验结果表明,与ROUSTIDA相比,所提方法在查全率上平均高出81%,在查准率上提升了5%~53%,且其归一化均方根误差(NRMSE)最多减小了0.12。此外,所提方法的分类准确率与ROUSTIDA相比平均提升了7%,且优于KNNI、RFI及MF等填补算法。
参考文献 | 相关文章 | 多维度评价
2. 基于医疗文本数据聚类的帕金森病早期诊断预测
张晓博, 杨燕, 李天瑞, 陆凡, 彭莉兰
计算机应用    2020, 40 (10): 3088-3094.   DOI: 10.11772/j.issn.1001-9081.2020030359
摘要413)      PDF (1270KB)(826)    收藏
针对多发于老龄人群的帕金森病(PD)的早期智能化诊断的问题,提出基于医疗检测文本信息数据的聚类技术来对PD进行分析预测。首先,对原始数据集进行预处理以获取有效特征信息,并通过主成分分析(PCA)方法将原始特征分别降维到8个不同维度的维度空间;然后,应用5个传统的经典聚类模型和3种不同的聚类集成方法分别对8个维度空间的数据进行聚类;最后,采用4个聚类性能指标来预测数据集中的多巴胺异常PD患者、健康体和无多巴胺缺失(SWEDD) PD患者。仿真结果显示,PCA特征维度值取30时,高斯混合模型(GMM)的聚类准确度达到89.12%;PCA特征维度值取70时,谱聚类(SC)的聚类准确度达到61.41%;PCA特征维度值取80时,元聚类算法(MCLA)的聚类准确度达到59.62%。对比实验结果表明,5种经典聚类方法中,PCA的特征维度值小于40时,高斯混合模型聚类效果最佳;3种聚类集成方法中,对于不同的特征维度,MCLA的聚类性能均表现优异,进而为PD的早期智能化辅助诊断提供了技术和理论支撑。
参考文献 | 相关文章 | 多维度评价